class: right, middle, inverse, titular background-image: url(data:image/png;base64,#img/title-background.png) background-size: contain background-position: -20% 0% <img src="data:image/png;base64,#img/fhwn-logo.png" width="125px"/> ## <div class="title"> Cross-Demographic Benchmarking of Commercial Services For Automated Facial Analysis Using Unconstrained Images </div> ## ### Till Bieg ### Juni 2022 [
bit.ly/face-benchmark](https://bit.ly/face-benchmark) --- class: center, middle # Überblick ---- <p style = "color: #4cbfac; line-height: 200%; size: 12;"> Einführung <br> Theoretischer Hintergrund <br> Forschungsfragen <br> Experiment 1 (Methode, Ergebnisse) <br> Experiment 2 (Methode, Ergebnisse) <br> Experiment 3 (Methode, Ergebnisse) <br> Einordnung der Ergebnisse, Limitationen und Implikationen <br> Schlussfolgerung </p> --- class: inverse, middle, center
# Einführung ---- --- ##
Einführung ---- * Technischer Fortschritt führt zu immer breiterer Anwendung von Automated Facial Analysis in verschiedensten Domänen [1; 2; 3] und Unternehmen haben begonnen Automated Facial Analysis als <mark class="turquoise">kommerzielle Services</mark> anzubieten [4; 5; 6; 7] * <mark class="turquoise">Automated Facial Analysis</mark>: Überbegriff, der verschiedene computergestützte Abläufe bezeichnet, die die Extraktion von Informationen aus digitalisierten Bildern von Gesichtern und die Identifizierung bedeutsamer Muster daraus beinhalten [4; 8] * Bisherige Forschung impliziert <mark class="turquoise">demografische Biases</mark> in kommerziellen Services [4; 9; 10; 11; 12; 13; 14; 15], allerdings existieren Forschungslücken: * Benchmarks kommerzieller Services für Face Verification bei "Unconstrained Images" unter Berücksichtigung von Gender, Race und Age * Vergleich kommerzieller Service für Face Verification bei "Unconstrained Images" über die Zeit * Benchmarks kommerzieller Services für Face-Based Age Inference unter Berücksichtigung von Gender, Race und Age * <mark class="turquoise">Ziel der Arbeit:</mark> Untersuchung dieser Forschungslücken, um Biases aufzudecken, Transparenz zu unterstützen und die empirische Grundlage für Entscheidungen zum Einsatz von Artifical Intelligence zu erweitern --- class: inverse, middle, center
# Theoretischer Hintergrund ---- --- ##
Theoretischer Hintergrund - Fairness in Machine Learning ---- * Moderne Machine Learning-Applikationen (Automated Facial Analysis und darüber hinaus) basieren oft auf großen Datenmengen [16; 17] * <mark class="turquoise">Biases</mark> im Entwicklungsprozess (z.B. nicht ausgewogene Trainingsdaten) können sich in Biases in den jeweiligen Modellen übertragen [18; 17; 19; 20; 21] * Potentielle Folge: <mark class="turquoise">Diskrimierung, ungerechte bzw. falsche Entscheidungen</mark> (z.B. Kreditvergabe, Strafverfolgung, Berufsförderung) * Motiviert hierdurch: <mark class="turquoise">Fair Machine Learning</mark> --- ##
Theoretischer Hintergrund - Fairness in Machine Learning ---- * Verschiedene Klassen von <mark class="turquoise">Definitionen für Fairness</mark> im Kontext von Machine Learning haben sich etabliert [22] * Je nach Kontext weisen die verschiedenen Definitionen von Fairness Limitationen auf [22] * Im Kontext der Arbeit gebräuliche Definition: <mark class="turquoise">Classification Parity</mark> [22] * Definition: Leistung eines Modells soll bezüglich Gruppen, die durch bestimmte "Protected Attributes" (z.B. Gender, Race, Age) definiert sind, gleich bzw. ähnlich sein * Beispiel: Bei einem Modell zur Face Verification sollte die Fehlerrate bei African Females auf ähnlichem Niveau sein wie bei Caucasian Males --- ##
Theoretischer Hintergrund - Demographische Dimensionen in Machine Learning ---- * <mark class="turquoise">"Demografic"</mark>: "eine Teilmenge der Bevölkerung, die ein ähnliches Alter, das gleiche Geschlecht und so weiter hat" [23] * Im Kontext von Automated Facial Analysis werden zumeinst drei demografische Dimensionen bezüglich Biases berücksichtigt: * <mark class="turquoise">Gender</mark> (Geschlecht): Meist auf binäre Kategorien reduziert (Weiblich, Männlich) [4; 14; 10; 24; 25; 26] * <mark class="turquoise">Race</mark>: Unscharf definierter Begriff, der sich auf geografische, soziale und kulturelle Ähnlichkeiten bezieht [27; 28] * <mark class="turquoise">Age</mark> (Alter): In Jahren - oft Unterteilung in Altersgruppen [11; 15; 25] * Wahre Komplexität demographischer Dimensionen im Kontext von Machine Learning häufig (noch) nicht abgebildet [4] * <mark class="turquoise">Intersektionale Betrachtung</mark> [29], besonders wichtig, da Studien gezeigt haben, dass Biases in Bezug auf intersektionale Gruppen erhöht sein können [4; 10] --- ##
Theoretischer Hintergrund - Kommerzielle Services für Automated Facial Analysis ---- .pull-left[ * Zahlreiche Unternehmen haben begonnen Automated Facial Analysis als <mark class="turquoise">kommerzielle Services</mark> anzubieten, z.B. Amazon, Microsoft, Megvii, Baidu, Kairos, Lambda Labs [5; 30; 31; 6; 7] * <mark class="turquoise">Zahlreiche Use Cases</mark> abgedeckt, z.B.: Face Verification, Gender Classification, Age Inference, Landmark Extraction, Emotion Detection, etc. [5; 30; 31; 6; 7] * Kommerzielle Services in der Regel als Application Programming Interfaces (APIs) zur Verfügung gestellt, die es Unternehmen und Privatpersonen erlauben, Services für eigene Anwendungen zu nutzen ] .pull-right[ * <mark class="turquoise">Kein direkter Einblick</mark> in Biases dieser Systeme für Dritte möglich  ] --- ##
Theoretischer Hintergrund - Demographische Biases in Face Verification ---- .pull-left[ * <mark class="turquoise">Face Verification</mark>: Algorithmus, der versucht zu erkennen, ob zwei Bilder eines Gesichts zu derselben Person gehören * Hohe Relevanz und viele Anwendungsfälle (Strafverfolgung, Authentifzierung, etc.) [32; 33] ] .pull-right[  ] --- ##
Theoretischer Hintergrund - Demographische Biases in Face Verification ---- * Studien haben bereits <mark class="turquoise">demograpische Biases</mark> in (kommerzieller) Face Verification gefunden [10; 11; 13; 14; 15; 17; 34], z.B.: * Modelle sind am genauesten bei Males, Caucasians oder Personen mittleren Alters * Modellgenauigkeit ist schlechter bei African und Asian Females oder bei jungen Menschen * Trotz zahlreicher Studien: <mark class="turquoise">Forschungslücken</mark> * Benchmarks kommerzieller Services für Face Verification bei "Unconstrained Images" unter Berücksichtigung von Gender, Race und Age * Vergleich kommerzieller Service für Face Verification bei "Unconstrained Images" über die Zeit --- ##
Theoretischer Hintergrund - Demographische Biases in Face-Based Age Inference ---- .pull-left[ * <mark class="turquoise">Face-Based Age Inference</mark>: Schätzung des Alters einer Person auf der Grundlage eines Bildes ihres Gesichts [35] * Viele aktuelle Forschungsarbeiten beschäftigen sich mit der Verbeserung von Face-Based Age Inference [36; 24; 25; 37; 38; 39; 40; 41] * Wenige Studien haben sich mit demographischen Biases in Face-Based Age Inference beschäftigt [24; 25] * Insbesondere <mark class="turquoise">Studien zu demographischen Biases in kommerziellen Services</mark> sind selten (erstaunlich, weil Face-Based Gender Inference große öffentliche Aufmerksamkeit erhalten hat [4; 9] ] .pull-right[  ] --- class: inverse, middle, center
# Forschungsfragen ---- --- ##
Forschungsfragen ---- RQ 1: Wie unterscheidet sich die Performance kommerzieller Services für Face Verification unter Verwendung von Unconstrained Images hinsichtlich demografischer Gruppen (Gender, Race und Age)? RQ 2: Wie unterscheiden sich kommerzielle Services für Face Verification hinsichtlich ihrer Performance unter Verwendung von Unconstrained Images? RQ 3: Wie hat sich die Performance kommerzieller Services für Face Verification unter Verwendung von Unconstrained Images im Vergleich zu früheren Benchmarks verändert? RQ 4: Wie unterscheidet sich die Performance kommerzieller Services für Face-Based Age Inference (unter Verwendung von Unconstrained Images) hinsichtlich demografischer Gruppen (Gender, Race und Age)? RQ 5: Wie unterscheiden sich kommerzielle Services für Face-Based Age Inference hinsichtlich ihrer Performance (unter Verwendung von Unconstrained Images)? --- class: inverse, middle, center
# Experiment 1 (Methode, Ergebnisse) ---- --- ##
Experiment 1 - Methode ---- .pull-left[ * Benchmark kommerzieller Face Verification Services (Amazon, Megvii, Microsoft) unter Verwendung von Unconstrained Images (<mark class="turquoise">RQ 1, RQ 2</mark>) * Berücksichtigung von <mark class="turquoise">Gender</mark> (Female, Male), <mark class="turquoise">Race</mark> (African, Asian, Caucasian, Indian) und <mark class="turquoise">Age</mark> (<30, 30-39, 40-49, 50+)</mark> * Verwendeter Datensatz: <mark class="turquoise">Balanced Faces in the Wild (BFW) [14]</mark> * 20,000 Unconstrained Images von 800 Individuen balanciert nach Gender und Race und entsprechende Labels * <mark class="turquoise">Keine Labels für Age</mark> ] .pull-left[ .center[  ] ] --- ##
Experiment 1 - Methode ---- * <mark class="turquoise">Labelling von Age</mark> für alle 20,000 Bilder im Datensatz nach der Methode von [25] * <mark class="turquoise">Auswahl von Bildpaaren</mark> * Randomisiert unter Berücksichtigung von Cosine Distances zwischen MobileNetV2-Embeddings [42] * Nur Paare innerhalb der gleichen Subgruppe (gleiches Gender, Race und Age) * 150 Genuine Pairs und 150 Imposter Pairs pro Subgruppe * Limitation: Bestimmte Altersgruppen stark unterrepräsentiert im Datensatz, daher in einigen Fälle keine 150 bzw. 300 Paare pro Gruppe --- ##
Experiment 1 - Methode ---- * <mark class="turquoise">Vergleichsgrößen</mark>: * False Match Rate (FMR) [11]: `\(FMR(T) = \frac{1}{M} \sum_{i=1}^{M} H(u_i - T)\)` * False Non-Match Rate (FNMR) [11]: `\(FNMR(T) = 1 - \frac{1}{N} \sum_{i=1}^{N} H(v_i - T)\)` * Equal Error Rate (EER): Wenn Decision Threshold so gewählt wird, dass die FMR gleich der FNMR ist, wird der gemeinsame Wert von FMR und FNMR als EER bezeichnet [43] * Analyse von FMRs und FNMRs auf Basis <mark class="turquoise">variierender Thresholds</mark> * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [44] bzw. R 4.1.0 [45] --- class: middle ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-1-1.png" width="90%" /> --- ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-2-1.png" width="80%" /> --- ##
Experiment 1 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-3-1.png" width="90%" /> --- ##
Experiment 1 - Ergebnisse ---- * Nach <mark class="turquoise">Services</mark>: Niedrigste Fehlerraten bei Amazon, höchste Fehlerraten bei Megvii * Nach <mark class="turquoise">dem. Gruppen</mark>: * Niedrigere Fehlerraten bei Females * Niedrigere Fehlerraten bei Caucasians, höhere bei Asians und Africans (je nach Service) * Höchste Fehlerraten bei Personen unter 30 Jahren * <mark class="turquoise">Intersektional</mark>: Niedrigste Fehlerraten bei älteren Causasian Males, höchste (u.a.) bei jüngeren Asian Females und älteren African Males * <mark class="turquoise">Biases höher in FMRs</mark> (z.B. 42 Prozentpunkte bei Amazon) im Vergleich zu FNMRs (12 Prozentpunkte bei Amazon) * Höhe der Unterschiede zwischen Gruppen <mark class="turquoise">hängt stark vom gewählten Threshold</mark> ab --- class: inverse, middle, center
# Experiment 2 (Methode, Ergebnisse) --- ##
Experiment 2 - Methode ---- .pull-left[ * <mark class="turquoise">Replikation</mark> des Benchmarks von Wang et al. [13] - einziger Benchmark von kommerziellen Services (Amazon, Megvii, Micosoft) zur Face Verification hinsichtlich demografischen Biases (<mark class="turquoise">RQ 3</mark>) * Verwendeter Datensatz: <mark class="turquoise">Racial Facial in the Wild (RFW) </mark> [13] - vier Gruppen nach <mark class="turquoise">Race</mark> (African, Asian, Caucasian, Indian) * <mark class="turquoise">Replikation der Bildpaare</mark> nach Wang et al. [13] mit 3,000 genuinen Paaren und 3,000 Imposter-Paaren pro Gruppe (24,000 Bilder insgesamt) * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [44] bzw. R 4.1.0 [45] ] .pull-right[ * <mark class="turquoise">Vergleichsgröße</mark>: `\(Accuracy =\frac{TP + TN}{TP + TN + FP + FN}\)` .center[  ] ] --- ##
Experiment 2 - Ergebnisse ---- .pull-left[ * Im Vergleich zu Wang et al. [13] <mark class="turquoise">Verbesserung der Perfromance bei Amazon und Microsoft</mark> um bis zu 23,1 Prozentpunkte (Accuracy von 98% oder mehr für alle demgrafischen Gruppen) * Im Vergleich zur Studie von Wang et al. [13] hat sich die Genauigkeit von <mark class="turquoise">Megvii nicht wesentlich verbessert</mark> * Die Performance aller Services ist <mark class="turquoise">am besten für Caucasians</mark>. Amazon und Microsoft erzielen die schlechtesten Ergebnisse für Asians und Megvii für Africans * Auch <mark class="turquoise">Biases</mark> für Amazon und Microsoft erscheinen <mark class="turquoise">reduziert</mark> (größter Unterschied zwischen Gruppen: 1,0 Prozentpunkte) ] .pull-right[ <!-- --> ] --- class: inverse, middle, center
# Experiment 3 (Methode, Ergebnisse) ---- --- ##
Experiment 3 - Methode ---- .pull-left[ * <mark class="turquoise">Benchmark kommerzieller Services für Face-Based Age Inference </mark> (Amazon, Megvii, Microsoft) unter Verwendung von Unconstrained Images (RQ 4, RQ 5) * Berücksichtigung von <mark class="turquoise">Gender</mark> (Female, Male), <mark class="turquoise">Race</mark> (Asian, African, Caucasian, Indian) und <mark class="turquoise">Alter</mark> (0-9, 10-19, 20-29, 30-39, 40-49, 50-59, 60-69) * Verwendeter Datensatz: <mark class="turquoise">Fairface</mark> [24; 25]: 108,000 Unconstrained Images mit Labes für Gender, Race and Age * <mark class="turquoise">Randomisierte Auswahl von 175 Bildern pro intersektionaler Subgruppe</mark> * Implementierung des Benchmarks, Auswertung und Visualisierung mit Python 3.8.8 [44] bzw. R 4.1.0 [45] ] .pull-right[ * <mark class="turquoise">Vergleichsgröße</mark>: Mean Absolute Error (MAE) [46]: `\(MAE = \frac{1}{M} \sum_{i=1}^{M} |(\hat{y_i} - y_i)\)` .center[  ] ] --- class: middle ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-5-1.png" width="80%" /> --- ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-6-1.png" width="68%" /> --- ##
Experiment 3 - Ergebnisse ---- <img src="data:image/png;base64,#index_files/figure-html/unnamed-chunk-7-1.png" width="70%" /> --- ##
Experiment 3 - Ergebnisse ---- * Nach <mark class="turquoise">Services</mark>: Konsistent niedrigster MAE für Microsoft, höchster für Megvii * Nach <mark class="turquoise">dem. Gruppen</mark>: * Niedrigerer MAE bei Males * Beste Performance für Amazon bei Causasians, Microsoft bei Africans, Megvii bei Asians * MAEs am niedrigsten bei älteren Menschen (Amazon, Microsoft) oder bei besonders jungen Altersgruppen (Megvii) * Intersektional: in Altersgruppen, in denen Amazon und Microsoft schlecht abschneiden (z. B. 60-69 Jahre), sind MAEs systematisch am niedrigsten für Caucasian Males. Ähnlich bei Megvii: MAEs in jungen Altersgruppen besonders niedrig für Asian Males * Größte Unterschiede zwischen dem. Gruppen bei Amazon: 403% bzw. 13.78 MAE-Einheiten [4.55 (Asian Females 20-29); 18.33 (African Females 60-69)] * Muster demographischer Biases tendenziell heterogen zwischen Services --- class: inverse, middle, center
# Einordnung der Ergebnisse, Limitationen und Implikationen ---- --- ##
Einordnung der Ergebnisse ---- * Allgemein: Ergebnisse sind eine <mark class="turquoise">Momentaufnahme</mark> und die Vergleichbarkeit mit anderen Studien ist nicht in jedem Fall vollends gegeben (spezifische Analyse und rasante Weiterentwicklung des Felds) * <mark class="turquoise">Face Verification</mark> * Ergebnisse zu Alter und Race decken sich überwiegend mit anderen Studien (z.B. [13; 11; 15]) * Ergebnisse zu Gender im Gegensatz zu anderen Studien (mehrere Erklärungen denkbar) * Replikation von [13] zeigt, dass sich kommerzielle Services (von Microsoft und Amazon) jedenfalls verbessert haben * Ausmaß von Gruppenunterschieden tendeziell niedriger im Vergleich zu anderen Studien [11] * <mark class="turquoise">Face-Based Age Inference</mark> * Wenige Ergebnisse zu demografischen Biases aus vorherigen Studien * Größere Unterschiede zwischen verschiedenen Altersgruppen im Vergleich zu Gruppen nach Gender und Race konsistent zu [24] * "Other-race"-Effekt [47] --- ##
Limitationen ---- * Stichprobengröße der intersektionalen Subgruppen (Repräsentativität, Ausmaß der Schwankungsbreite, Untersuchung niedriger Fehlerlevel) * Berücksichtigung nur bestimmter demografischer Dimensionen und Gruppen (z.B. manche Altersgruppen nicht oder kaum reprärsentiert) * In Experiment 2 ausgehend von Replikation nur Accuracy als Vergleichsgröße berücksichtigt * Weitere Einflussfaktoren wie Schärfe oder Belichtung lagen nicht im Fokus der Arbeit * Möglicherweise "Noisy Labels" * Analyse von Detection Errors lag nicht im Fokus der Arbiet * Face Verification versus Face Search --- class: inverse, middle, center
# Schlussfolgerung ---- --- ##
Schlussfolgerung ---- * <mark class="turquoise">Verbesserung kommerzieller Services</mark> für Face Verification über die Zeit - aber systematische <mark class="turquoise">demographische Biases immer noch vorhanden</mark> (z.B. bessere Performance bei Caucasians) * Auch eindeutige <mark class="turquoise">Unterschiede zwischen demografischen Gruppen bei Face-Based Age Inference</mark>, die auf Biases in den Trainingsdaten hinweisen * Trotz Verbesserungen der Services ist ein <mark class="turquoise">reflektierter Einsatz im Bewusstsein über deren Schwächen und Limitationen gefordert</mark> * Benchmarks von (kommerziellen) Machine Learning-Modellen bleiben relevant, um einen <mark class="turquoise">fairen, transparenten Einsatz dieser Technologien</mark> langfristig sicherzustellen - Ergebnisse der Arbeit können hierbei als <mark class="turquoise">Referenzpunkt</mark> dienen --- # Literatur [1] J. Lynch. "Face off: Law enforcement use of face recognition technology". In: _Electronic Frontier Foundation_ (2019). [2] A. J. Shepley. "Deep Learning For Face Recognition: A Critical Analysis". In: _arXiv preprint arXiv:1907.12739_ (2019). [3] A. Norval and E. Prasopoulou. "Public faces? A critical exploration of the diffusion of face recognition technologies in online social networks". In: _New Media & Society_ 19.4 (2017), pp. 637-654. [4] J. Buolamwini and T. Gebru. "Gender shades: Intersectional accuracy disparities in commercial gender classification". In: _Conference on Fairness, Accountability and Transparency_. 2018, pp. 77-91. [5] Amazon. _Amazon Rekognition_. <URL: https://aws.amazon.com/de/rekognition>. Last accessed 2021-07-15. 2021. [6] Face++. _Face Comparing_. <URL: https://faceplusplus.com/face-comparing>. Last accessed 2021-07-15. 2021. [7] Microsoft. _Face - An AI service that analyzes faces in images_. <URL: https://azure.microsoft.com/en-us/services/cognitive-services/face>. Last accessed 2021-07-15. 2021. --- # Literatur [8] J. F. Cohn and T. Kanade. "Use of automated facial image analysis for measurement of emotion expression". In: _Handbook of Emotion Elicitation and Assessment_. Oxford, 2007, pp. 222-238. [9] I. D. Raji and J. Buolamwini. "Actionable auditing: Investigating the impact of publicly naming biased performance results of commercial AI products". In: _Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society_. 2019, pp. 429-435. [10] I. Hupont and C. Fernández. "DemogPairs: Quantifying the impact of demographic imbalance in deep face recognition". In: _IEEE International Conference on Automatic Face & Gesture Recognition_. 2019, pp. 1-7. [11] P. Grother, M. Ngan, and K. Hanaoka. _Face Recognition Vendor Test (FVRT): Part 3, Demographic Effects_. National Institute of Standards and Technology, 2019. [12] J. J. Howard, Y. B. Sirotin, J. L. Tipton, et al. "Quantifying the Extent to Which Race and Gender Features Determine Identity in Commercial Face Recognition Algorithms". In: _arXiv preprint arXiv:2010.07979_ (2020). [13] M. Wang, W. Deng, J. Hu, et al. "Racial Faces in the Wild: Reducing racial bias by information maximization adaptation network". In: _Proceedings of the IEEE International Conference on Computer Vision_. 2019, pp. 692-702. --- # Literatur [14] J. P. Robinson, G. Livitz, Y. Henon, et al. "Face recognition: too bias, or not too bias?" In: _Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops_. 2020, pp. 0-1. [15] H. El Khiyari and H. Wechsler. "Face verification subject to varying (age, ethnicity, and gender) demographics using deep learning". In: _Journal of Biometrics and Biostatistics_ 7.323 (2016), p. 11. [16] F. Chollet. _"Deep learning with Python"_. Manning Publications Company, 2017. [17] J. G. Cavazos, P. J. Phillips, C. D. Castillo, et al. "Accuracy comparison across face recognition algorithms: Where are we on measuring race bias?" In: _IEEE transactions on biometrics, behavior, and identity science_ 3.1 (2020), pp. 101-111. [18] S. Maity, D. Mukherjee, M. Yurochkin, et al. "There is no trade-off: Enforcing fairness can improve accuracy". In: _arXiv e-prints_ (2020), pp. arXiv-2011. [19] B. F. Klare, M. J. Burge, J. C. Klontz, et al. "Face recognition performance: Role of demographic information". In: _IEEE Transactions on Information Forensics and Security_ 7.6 (2012), pp. 1789-1801. --- # Literatur [20] A. Kortylewski, B. Egger, A. Schneider, et al. "Analyzing and Reducing the Damage of Dataset Bias to Face Recognition With Synthetic Data". In: _IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops_. 2019, pp. 2261-2268. [21] B. H. Zhang, B. Lemoine, and M. Mitchell. "Mitigating unwanted biases with adversarial learning". In: _Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society_. 2018, pp. 335-340. [22] S. Corbett-Davies and S. Goel. "The measure and mismeasure of fairness: A critical review of fair machine learning". In: _arXiv preprint arXiv:1808.00023_ (2018). [23] Oxford Advanced Learner's Dictionary. _Definition of demographic noun from the Oxford Advanced Learner's Dictionary_. <URL: https://www.oxfordlearnersdictionaries.com/definition/english/demographic_1>. Last accessed 2021-06-01. [24] K. Karkkainen and J. Joo. "FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age". In: _arXiv preprint arXiv:1908.04913_ (2019). [25] K. Karkkainen and J. Joo. "FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation". In: _Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision_. 2021, pp. 1548-1558. --- # Literatur [26] Z. Zhang, Y. Song, and H. Qi. "Age progression/regression by conditional adversarial autoencoder". In: _Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition_. 2017, pp. 5810-5818. [27] K. L. Suyemoto, M. Curley, and S. Mukkamala. "What do we mean by ethnicity and race? A consensual qualitative research investigation of colloquial understandings". In: _Genealogy_ 4.3 (2020), p. 81. [28] R. Bhopal. "Glossary of terms relating to ethnicity and race: for reflection and debate". In: _Journal of Epidemiology & Community Health_ 58.6 (2004), pp. 441-445. [29] K. Crenshaw. "Demarginalizing the intersection of race and sex: A black feminist critique of antidiscrimination doctrine, feminist theory and antiracist politics". In: _University of Chicago Legal Forum_ (1989). [30] Kairos. _Kairos: Serving Businesses with Face Recognition_. <URL: https://www.kairos.com/>. Last accessed 2021-07-15. 2021. [31] Lambda Labs. _Face Recognition API_. <URL: https://lambdalabs.com/face-recognition-api>. Last accessed 2021-07-15. 2021. --- # Literatur [32] Interpol. _Facial Recognition_. <URL: https://www.interpol.int/How-we-work/Forensics/Facial-Recognition>. Last accessed 2021-08-03. 2021. [33] New York Times. _Your face is, or will be, your boarding pass_. <URL: https://www.nytimes.com/2021/12/07/travel/biometrics-airports-security.html>. Last accessed 2021-12-28. 2021. [34] K. Krishnapriya, K. Vangara, M. C. King, et al. "Characterizing the Variability in Face Recognition Accuracy Relative to Race". In: _arXiv e-prints_ (2019), pp. arXiv-1904. [35] Y. Deng, S. Teng, L. Fei, et al. "A Multifeature Learning and Fusion Network for Facial Age Estimation". In: _Sensors_ 21.13 (2021), p. 4597. [36] M. Akhand, M. I. Sayim, S. Roy, et al. "Human Age Prediction from Facial Image Using Transfer Learning in Deep Convolutional Neural Networks". In: _Proceedings of International Joint Conference on Computational Intelligence_. 2020, pp. 217-229. --- # Literatur [37] O. Guehairia, A. Ouamane, F. Dornaika, et al. "Feature fusion via Deep Random Forest for facial age estimation". In: _Neural Networks_ 130 (2020), pp. 238-252. [38] S. T. Rahman, A. Arefeen, S. S. Mridul, et al. "Human Age and Gender Estimation using Facial Image Processing". In: _IEEE Region 10 Symposium_. 2020, pp. 1001-1005. [39] S. E. Bekhouche, F. Dornaika, A. Benlamoudi, et al. "A comparative study of human facial age estimation: Handcrafted features vs. deep features". In: _Multimedia Tools and Applications_ 79.35 (2020), pp. 26605-26622. [40] S. Gong, X. Liu, and A. K. Jain. "Jointly de-biasing face recognition and demographic attribute estimation". In: _European Conference on Computer Vision_. 2020, pp. 330-347. [41] O. Agbo-Ajala and S. Viriri. "Face-based age and gender classification using deep learning model". In: _"Pacific-Rim Symposium on Image and Video Technology"_. 2019, pp. 125-137. [42] M. Sandler, A. Howard, M. Zhu, et al. "MobileNetV2: Inverted residuals and linear bottlenecks". In: _Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition_. 2018, pp. 4510-4520. [43] D. Scheuermann, S. Schwiderski-Grosche, and B. Struif. _Usability of biometrics in relation to electronic signatures_. GMD-Forschungszentrum Informationstechnik Sankt Augustin, 2000. --- # Literatur [44] Python Software Foundation. _Python Language Reference, version 3.8_. <URL: http://www.python.org>. Last accessed 2021-06-30. 2021. [45] R Core Team. _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing. Vienna, Austria, 2021. [46] A. Géron. _Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems_. O'Reilly Media, 2019. [47] P. J. Phillips, F. Jiang, A. Narvekar, et al. "An other-race effect for face recognition algorithms". In: _ACM Transactions on Applied Perception_ 8.2 (2011), pp. 1-11. --- # Anhang: Beispielbilder (BFW, RFW, Fairface) .center[    ]